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基于 分 层 强化 学 习 的 自动 驾驶 车 辆 掉头 问题 研究 
A W, WRN, E 


(兰州 理工 大 学 计算 机 与 通信 学 院 ， 兰 州 730050) 


摘 E: 调头 任务 是 自动 驾驶 研究 的 内 容 之 一 ， 大 多 数 在 城市 规范 道路 下 的 方案 无 法 在 非 规 范 道路 上 实施 。 针 对 这 
一 问题 文中 建立 了 一 种 车 辆 掉头 动力 学 模型 ， 并 设计 了 一 种 多 尺度 卷 积 神经 网 络 提取 特征 图 作为 智能 体 的 输入 。 男 
外 文中 还 针对 调头 任务 中 的 稀疏 奖励 问题 ， 结 合 分 层 强化 学 习 和 近 端 策略 优化 算法 提出 了 分 层 近 端 策略 优化 算法 ， 
在 简单 和 复杂 场景 的 实验 中 ， 该 算法 相 比 于 其 他 算法 能 够 更 快 的 学 习 到 策略 ， 并 且 具 有 更 高 的 掉头 成 功率 。 
关键 词 : 分 层 强 化 学 习 ; 汽车 掉头 ; 稀疏 奖励 ; 近 端 策略 优化 
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Research on autonomous vehicle u-turn problem based on hierarchical reinforcement learning 


Cao Jie, Shao Zixuan, Hou Liang! 
(Dept. of Computer & Communication, Lanzhou University of Technology, Lanzhou 730050, China) 


Abstract: The U-turn task is one of the contents of autonomous driving research, and most of the solutions under the standard 
roads in cities cannot be implemented on non-standard roads. Aiming at solving this problem, this paper establishes a vehicle 
U-turn dynamical model and designs a multi-scale convolutional neural network to extract feature maps as the input of the 
agent. In addition, for the sparse reward problem in the U-turn task, this paper proposes a hierarchical proximal policy 
optimization algorithm that combines hierarchical reinforcement learning and proximal policy optimization algorithm. In 
experiments with simple and complex scenarios, this algorithm learns policies faster and has a higher success rate of U-turn 
compared to other algorithms. 


Key words: hierarchical reinforcement learning; car u-turn; sparse rewards; proximal policy optimization 


0 引言 自动 驾驶 决策 策略 ， 提 出 了 一 种 基于 深度 强化 学 习 的 变 道 决 
xi 策 框架 。Peng APARIA H ET] BE EL 237) 25 380 4E 
随 着 经 济 不 断 发 展 ， 人 们 对 自动 驾驶 车 辆 的 要 求 也 逐步 “设计 一 个 利他 的 奖励 功能 ,来 提高 整个 交叉 路 口 的 通行 效率 。 
提高 。 现 有 的 自动 驾驶 车 辆 已 经 能 够 在 城市 道路 和 高 速 公 路 WANG 等 人 [3 基于 强化 学 习 的 端 到 端 自动 驾驶 模型 提出 了 
上 行驶 ， 它 通过 地 图 数据 与 全 球 定位 系统 (global positioning 一 种 异步 监督 学 习 方法 ， 以 解决 在 真实 环境 中 训练 该 模型 的 
system，GPS) 定 位 信号 或 者 车 载 摄像 头 来 获取 车 辆 位 置 ， 通 ”初始 性 能 较 差 的 问题 。Kim 等 人 [5 利 用 强化 学 习 对 现 有 的 自 
过 识别 道路 上 的 路 面 标 记 、 交 通 标志 以 及 交通 信号 灯 来 作出 动 驾 驶 模型 进行 了 修正 和 改进 ， 提 出 了 一 种 自动 驾驶 预测 模 
正确 的 决策 。 但 在 一 些 地 下 停车 场 、 小 区 车 道 等 路 况 复 杂 的 W, 减少 了 训练 时 间 ， 并 提高 了 驾驶 表现 。 Kendall 等 人 D29 首 
空间 场景 ，GPS 信和 号 较 弱 ， 同 时 缺乏 路 面 标记 以 及 交通 辅助 次 演示 了 深度 强化 学 习 在 自动 驾驶 中 的 应 用 ， 他 们 的 模型 能 
信息 ， 自 动 驾 驶 车 辆 往往 难以 应 对 此 类 场景 。 够 使 用 单一 的 单眼 图 像 作 为 输入 ， 在 少量 的 训练 集中 学 习 车 
传统 的 自动 驾驶 系统 上 3 在 设计 的 过 程 中 被 分 解 为 多 个 ” 道 跟随 策略 。 相 比 传 统 的 自动 驾驶 技术 ， 深度 强化 学 习 技术 
子 系统 ， 通 过 子 系统 之 间 的 相互 配合 来 完成 自动 驾驶 任务 ， 不 用 设计 繁多 的 任务 模块 ， 可 以 模拟 人 的 驾驶 行为 ， 从 “ 端 
并 在 一 些 复杂 场景 中 设计 大 量 的 子 模块 辅助 车 辆 进行 自动 驾到 端 ” 解 决 自 动 驾 驶 问题 
驶 ， 这 样 的 设计 使 得 自动 驾驶 技术 非常 复杂 ， 维 护 成 本 高 昂 。 1 — 应 对 生活 中 出 现 的 各 类 场景 ， 
近 些 年 ， 人 工 智 能 技术 中 9 发 展 迅猛 ， 尤 其 是 强化 学 习 [-93] 展 现 ”能够 在 各 种 情况 下 完成 自动 驾驶 任务 。 除 了 高 速 公 路 以 及 城 
出 了 巨大 的 潜力 。 强 化 学 习 分 为 基于 模型 的 强化 学 习 方 法 3 和 ”市 道路 ， 自 动 驾 驶 车 辆 也 应 当 能 够 在 一 些 不 规范 道路 ， 比 如 
无 模型 的 强化 学 习 方 法 9- 忆 。 它 是 一 种 学 习 、 预 测 、 决 策 的 。 ”小 区 车 道 ， 停 车 场 车 道 等 道路 上 进行 自动 驾驶 。 目 前 城市 道 
方法 框架 , 也 是 一 种 致力 于 实现 通用 智能 解决 复杂 问题 的 方式 。 路 场景 (比如 提高 十 字 路 口 通行 效率 、 超 车 、 跟 车 等 行为 ) 以 及 
但 是 传统 的 强化 学 习 方 法 在 一 些 奖励 稀疏 中 问题 上 表现 较 差 ， ”高 速 公路 场景 的 自动 驾驶 已 经 存在 比较 多 的 研究 ， 然 而 在 其 
针对 该 问题 ， 一 些 研究 人 员 提 出 使 用 分 层 强 化 学 习 072 的 方法 场景 下 自动 驾驶 任务 仍 需 要 作出 一 些 工作 。 比 如 在 此 类 道 
解决 。 路 进行 一 些 掉头 、 转 弯 等 行为 ， 当 在 此 类 地 区 进行 自动 驾驶 
强化 学 习 在 自动 驾驶 领域 也 有 大 量 的 应 用 2 ,在 驾驶 时， 可 以 使 用 车 辆 传感器 对 道路 环境 进行 观测 ， 然 后 通过 车 
车 辆 的 过 程 中 ， 驾 驶 员 需 要 时 刻 注意 车 辆 周围 的 环境 情况 ， 载 计 算 机 计算 出 最 pcdes 最 后 车 辆 根据 车 载 计算 机 规 
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不 断根 据 周围 环境 的 变化 作出 决策 ， 而 深度 强化 学 习 技术 能 。” 划 出 来 的 路 线 完 成 自动 驾驶 任务 。 

解决 端 到 端的 感知 与 决策 问题 ， 越 来 越 多 的 学 者 开始 将 深度 本 工作 使 用 深度 强化 学 习 技术 ， 针 对 一 些 缺 乏 自动 驾驶 

强化 学 习 应 用 在 自动 驾驶 领域 。 辅助 信息 的 场景 ， 建 立 了 马尔 可 夫 决 策 过 程 (Markov decision 
Li 等 人 R21 为 寻找 具有 风险 意识 且 能 够 使 得 风险 最 小 的 ” proces, MDP) 模 型 ， 提 出 了 一 种 自动 驾驶 车 辆 在 不 规范 车 道 
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下 的 掉头 方法 。 


考虑 到 车 载 摄 RC ORDABONTSCRMR TE, 视 


频 图 像 信息 容易 受到 对 抗 村 
激光 雷达 传感器 进行 采集 信息 
整体 上 这 篇 了 


本 的 攻击 等 问题 ?7 ， 因 而 采用 


ChinaXiv 合 作 期 刊 
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作为 输入 。 


[ 作 主 要 的 贡献 点 在 于 : 


a) 一 个 在 不 规则 车 道场 景 下 的 车 辆 掉头 MDP 模型 在 这 


篇 论文 中 提出 ， 

b) 一 种 多 
征 的 任务 ， 取 得 
c) 一 种 针对 


下 qut 的 
调头 任务 奖励 问题 提出 的 分 层 近 端 策 
O E proximal policy optimization, HPPO), 


其 效果 在 简单 
1 žy 


中 得 到 验证 。 


doas 下 的 自动 驾驶 任务 。 


神经 网 络 被 用 作 提取 状态 值 特 


为 了 更 好 的 解决 车 辆 掉头 问题 ， 先 将 其 抽象 为 马尔 可 夫 


决策 过 程 ， 然 后 使 用 
包含 几 个 重要 的 元 素 : 


学 习 的 方法 来 解决 这 一 问题 。MDP 
(5,4,R,Y) ， 其 中 5 代表 环境 状态 ，4 


从 表 智能 体 的 动人 
换 可 以 表示 为 : 


E, 代表 环境 的 
1 时 刻 的 环境 状态 为 5 ,在 智能 体 执行 动作 a 
后 环境 状态 转变 为 5 ,同时 环境 反馈 给 智能 体 7 的 奖励 ， 这 
一 系列 状态 、 动 作 、 奖 励 的 轨迹 定义 为 r ， 如 式 (1) 所 示 。 

T = (S0, dosto S1 Tr Tg (1) 


T| 代表 决策 序 发 度 ， 强 化 学 习 的 最 终 目 标 是 通过 智能 


Hu 


报 ， 一 次 完整 的 状态 转 


体 与 环境 不 断交 互 得 到 最 大 累计 奖励 ww ， 如 式 (2) 所 示 。 
fis 2 (2) 
在 智能 体 与 环境 不 断交 互 的 过 程 中 ,为 了 获取 最 高 奖励 ， 


智能 体 通 过 学 习 选 取 价 值 最 优 的 策略 (动作 )， 可 通过 如 2 价 


值 函 数 表示 ， 如 式 (3) 所 示 。 
Q. (s.a) - E, 1G, |S, -5,A, =a} (3) 


其 中 ， G, 表示 1 时 


价值 函数 可 


Ep, zals) 表示 智 


刻 的 状态 到 达 最 终 状 态 的 累计 奖励 。4 值 
用 于 评判 动作 的 好 坏 ， 状 态 的 好 坏 使 用 Y 值 来 评判 ， 并 且 V 
于 2 价值 函数 值 来 计算 ， 如 式 (4) 所 示 。 

VG) 2 J zla | 0. G,a) (4) 


9 能 体 的 策略 ， 即 在 状态 $ 下 选择 动作 a 的 


表演 家 -评论 家 (Actor-Critic) 算 法 融合 了 基于 价值 的 方法 


与 基于 策略 的 方法 ， 


通过 评论 家 (Critic) 网 络 


使 用 表演 家 (Actom) 网 络 学 习 策略 ， 又 
汕 计 的 价值 函数 进行 策略 更 新 ， 它 解 


基于 策略 的 方法 的 
为 。 它 是 一 种 近似 的 策 


祠 方 差 问题 ， 并 且 更 容易 处 理 连续 行 
各 梯度 ， 其 梯度 计算 如 式 (5) 所 示 。 
& ES [V5 log zs, a)Q, (s, a)] (5) 


一 组 短期 了 


， 它 通过 设计 


区 难以 发 挥 出 其 优越 的 性 能 。 
问题 来 加 速 稀疏 奖励 任务 中 的 学 习 。 

论 家 (hierarchical actor-critic, HAC) 算 法 是 第 一 
连续 状态 和 动作 空间 的 任务 中 并 行 学 习 三 级 
的 三 种 转换 ， 并 行 的 训练 多 个 


交通 过 在 马尔 


ri 的 标 ， 每 
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分 层 强化 学 习 通 过 将 


“可 夫 决 策 过 程 中 增加 了 一 组 目标 G ， 
尔 可 夫 决 策 过 程 (universal markov decision 
, 所 以 通用 马尔 可 夫 决 策 过 程 包含 的 元 素 为 : 

th G 是 目标 集合 ， 它 的 2 值 与 Y 值 计 算 如 式 


Q,G,g.a) = DA ami Si = 8, 8, 78.4, =a] (8) 


V. Gs. g) - E, JR bon il se = 2l (9) 


层级 的 状态 、 动 作 集合 


省 优化 算法 采 月 


ee 始 空 间 相同 ， 低 一 层 智 能 体 通 
ann 


值 函 数 。 


月 分 层 表演 家 -评论 家 算法 的 


制 的 基础 上 ， 利 用 近 端 策略 优化 算法 来 更 新 
评论 家 网 络 。 


车 辆 掉头 动态 模型 建立 


(the open racing car simulator, 
且 难 以 二 次 7 


于 目前 的 自动 驾驶 算法 训练 平台 ， 如 开放 赛车 模拟 器 
TORCS), Air Sim, Carla 等 都 无 
开发。 所 以 解决 自动 驾驶 车 辆 的 


要 针对 场景 建立 模型 与 仿真 环境 ， 最 后 选用 


Bisnis ro 


FE 辆 的 位 置 与 转弯 


角度 作为 状态 ， 选 择 车 辆 的 


转 村 角度 作为 动作 ， ES E 
得 到 ， 如 式 (10) 所 示 。 


Xa 7X IE sin(O +40)dt 


行 后 , RES 


Yur y +f» cos(0 - AQ)dt 


的 位 置 可 根据 上 一 时 刻 的 


(10) 


两 动力 模型 ， 


奖励 函数 设计 的 好 坏 直 接 影 
仿真 车 辑 


度 的 变化 量 , 最 后 构建 奖励 
奖励 函数 如 式 (11) 所 示 。 


;=0( 车 辆 正常 行驶) 


=4r=10-w4uw( 车 辆 成 功 掉头 ) (11) 


r= 一 10( 车 辆 触 碰 边界 ) 


， 给 智能 


RH, o 表示 评论 家 网 络 更 新 的 动作 值 函数 ，9 表示 表演 家 


网 络 以 评论 家 网 络 所 指 与 


斤 端 A 


Vom SR 


法 是 基于 表演 家 -评论 家 村 


进行 了 改进 ， 优 
用 阶段 代理 目标 函数 来 控 


导 的 方向 更 新 策略 参数 。 

略 优化 算法 (Proximal dd Kd PPO) 算 
匡 架 的 算法 , 它 是 在 基于 置信 域 的 策 
各 优化 (Trust region policy optimization, in 
新 参数 的 方式 。 近 端 策 略 优化 算法 采 
1 策略 的 更 新 ， 它 将 新 旧 策 略 的 比 


值 限 制 在 一 个 范 EE 


A Ede ox A GER 的 大 小 来 限制 更 新 


的 幅度 。 近 端 策 


JO =E, pya- 


骆 优化 算法 的 目标 函数 如 式 (6) 所 示 。 
[min(k, (B), clip(k, (8),1 — e,14- )) A (s,a)] (6) 


其 中 ， < 是 用 


clip(k,(8),1— 2,14 £) 将 重 


策略 与 老 策略 之 间 偏 差 程度 的 超 参 数 ， 
生 采 样 权 重 限 制 在 4-el+e 的 范围 内 。 


k(0) 表示 新 


[imi 
pl 
In? 
[ 


HINT) rz e 


o. 7 (a,s) 


(7) 


To (a,s) 


结构 的 强化 学 习 算 法 在 应 对 一 些 奖励 稀疏 的 问 


边界 ; 当 仿真 车 多 
吏 用 的 动作 总 数 A 


过 反复 实验 ， 最 终 取 < 为 0.1。 


向 着 算法 的 收敛 与 否 以 及 算 
在 掉头 过 程 中 所 做 的 动作 难以 
奈 ， 所 以 将 仿真 车 辆 行驶 时 刻 的 奖励 设置 为 0。 当 仿 

体 一 个 较 大 的 负 奖 励 ， 促 使 其 
成 功 掉头 时 ,给 它 一 个 


尽 


“与 参数 4 的 乘积 ， 经 


弯 角 度 信 | iid 操作 后 输入 特征 


百 将 状态 特征 输入 智能 


大 小 设置 为 400x600 , 
部 分 是 不 可 行驶 区 域 ， 灰 


以 左下 角 为 


FP 不 能 在 不 可 行驶 


5 然后 环境 给 智能 


究 针对 所 建立 的 模型 构建 了 虚拟 仿真 环境 ， 地 图 的 
原点 ， 在 这 张 地 图 
色 部 分 是 可 行驶 区 域 ， 黑 色 直 线 表 


智能 体 经 过 处 理 后 
反馈 奖励 信号 ， 模 


H, 绿色 


两 在 掉头 过 程 中 的 速度 是 ， 
区 域 行驶 。 和 车 


时 仿真 环境 的 大 小 ,形状 和 车 辑 


下 定 的 ， 车 辆 在 掉头 过 
ji 掉头 仿真 环境 如 图 2 所 示 。 
的 动态 特性 ,和 一 个 规 


环境 的 边缘 等 


习 素 ;将 奖励 值 的 定义 
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a) 240-L«y«300-L , JE H. x «100-L , x»300-LIS], 表示 
车 辆 行驶 到 了 不 可 行驶 区 域 ， 此 时 ~=-10 ， 学 习 过 程 结束 
EE 新 开始 。 

b) %4 300+L<y<600-L ， 并 且 x<0+L 或 x*>400-L 时 ， 表 
示 车 辆 撞 到 了 地 图 的 左右 边界 ， 此 时 +=-10， 学 习 过 程 结束 
并 重新 开始 。 
c) 当 0+L<x<400-L， 并 且 y<0+L 或 y>600-L 时 ,表示 
车 辆 撞 到 了 地 图 的 上 下 边界 ， 此 时 r=-10， 学 习 过 程 结束 
EE 新 开始 。 

d) 4 0+L<y<100-L, 
达 目 的 地 ，7=10-cw4ow o 
e) 其 他 情况 , 仿真 车 辆 被 认为 在 模拟 场景 中 行驶 ，~=0 。 


Liz 


Liz 
TET 


且 100+L<x<300-L 时 ， 车 辆 到 


图 1 模型 原理 图 
Fig.1 Model schematic diagram 

在 建立 第 一 个 环境 时 ， 由 于 车 辆 可 行驶 区 域 较 大 ， 在 训 
练 过 程 中 ， 仿 真 车 辆 不 用 倒车 也 可 以 实现 掉头 行为 ， 所 以 为 
了 增加 实验 难度 , 让 自动 驾驶 车 辆 能 够 适应 更 多 的 复杂 环境 ， 
第 二 个 实验 缩小 了 仿真 车 辆 用 于 转弯 掉头 的 可 行驶 区 域 ， 此 
时 仿真 车 辆 必须 在 转弯 过 程 中 进行 倒车 才能 完成 掉头 任务 ， 
增加 掉头 难度 后 的 仿真 环境 示意 图 如 图 3 所 示 。 


图 2 仿真 环境 示意 图 图 3 仿真 环境 示意 图 


Fig.2 Schematic diagram of Fig.3 Schematic diagram of s 


simulation environment imulation environment 

环境 改进 后 ， 此 时 奖励 值 的 定义 规则 如 下 : 

a) 当 0+L<y<400-L, JE H x «100-L, x2300-LH[, 表示 
车 辆 行驶 到 了 不 可 行驶 区 域 ， 此 时 +=-10， 学 习 过 程 结束 
新 开始 。 
b) 当 400+L<y<600-L， 并 且 x<0+L 或 x*>400-L 时 ， 表 
示 车 辆 撞 到 了 地 图 的 左右 边界 ， 此 时 r=-10， 学 习 过 程 结束 
并 重新 开始 。 

c) 4 0+L<x<400-L, 并且 y<0+L 或 y>600-L， 表 示 车 
辆 撞 到 了 地 图 的 上 下 边界 ， 此 时 =-10， 学 习 过 程 结束 并 
新 开始 。 


lir 


pup 
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d) 当 0+Z<y<100- 工 ， 并 且 100+Z<x<300- 工 ， 车 辆 到 达 
目的 地 ，r=10-c4ow o 
e) 其 他 情况 ， 车 辆 被 认为 在 模拟 场景 中 行驶 ，r~=0。 
在 强化 学 习 当 中 ， 奖 励 函 数 对 智能 体 的 训练 至 关 重 要 ， 
承担 了 类 似 于 监督 学 习 中 数据 标签 的 作用 。 一 方面 ， 由 于 
1 开始 训练 时 ， 智 能 体 采 用 随机 策略 ， 导 致 智能 体 获取 奖励 
难度 较 大 ， 所 以 刚 开 始 训练 智能 体 时 得 到 的 奖励 相对 稀 朴 ; 
另 一 方面 ， 稀 疏 奖励 广泛 存在 于 一 些 强化 学 习 任 务 之 中 。 比 
如 在 机 械 臂 抓 取 任务 中 ， 机 械 臂 要 完成 一 系列 复杂 的 动作 才 
能 成 功 抓 取 目 标 ， 获 得 最 终 奖 励 ， 中 间 任 何 一 个 动作 导致 实 
验 失败 都 无 法 获取 最 终 奖励 ， 但 除去 导致 机 械 臂 抓 取 任务 失 
败 的 少 部 分 动作 外 ， 该 过 程 中 的 其 他 动作 很 难 判定 其 好 坏 ， 
也 很 难 给 与 这 些 动 作 确定 的 奖励 ;在 飞行 器 导航 任务 中 ， 只 
有 当 飞 行 器 成 功 到 达 指 定位 置 或 撞 毁 在 障碍 物 上 时 才能 获得 
最 终 奖 励 或 惩罚 ， 飞 行 过 程 中 飞行 器 所 做 的 一 系列 调整 飞行 
姿势 的 动作 都 很 难 设 定 奖励 ， 还 有 围棋 等 强化 学 习 任务 都 属 
于 稀疏 奖励 问题 ， 在 使 用 深度 强化 学 习 解 决 实际 问题 时 经 常 
面临 着 该 问题 ， 它 会 大 大 降低 算法 的 迭代 速度 ， 甚 至 会 导致 
算法 难以 收敛 。 念 真 环境 中 的 奖励 示意 图 如 图 4 所 示 。 


Blüreward 10- aA 


到 


Bil reward =0 


Wl reward = -10 


图 4 仿真 环境 的 奖励 示意 图 
Fig.4 The reward schematic of the simulation environment 
在 仿真 环境 中 ， 浅 绿色 部 分 代表 不 可 行使 区 域 ， 灰 色 部 
分 代表 可 行驶 区 域 。 在 可 行驶 区 域内 部 ， 仿 真 车 辆 驶 入 深 绿 
色 的 方 框 代表 到 达 目 标 区 域 ， 此 时 获得 奖励 ， 红 色 的 线 代 表 
仿真 环境 的 边界 ， 当 仿真 车 辆 在 行驶 过 程 中 碰 到 红色 的 线 代 
表 此 回合 训练 失败 ， 此 时 获得 惩罚 ;在 其 他 情况 下 ， 即 仿真 
车 辆 行驶 在 灰色 可 行驶 区 域 ， 未 进入 目标 区 域 也 未 触 碰 仿 真 
环境 边界 ， 奖 励 为 零 。 由 奖励 示意 图 可 观察 到 ， 没 有 奖励 或 
惩罚 的 状态 的 数量 要 远 远 超过 有 奖励 的 状态 的 数量 ， 在 实验 
中 ， 有 确定 奖励 的 状态 非常 稀 玻 。 
3 ”分 层 近 端 策略 优化 算法 
很 多 传统 的 强化 学 习 算 法 采用 同 策略 的 方式 一 边 与 环境 
交互 ， 一 边 进 行 学 习 ， 这 样 大 大 降低 了 智能 体 的 学 习 速 度 ， 
近 端 策略 优化 算法 通过 重要 性 采样 将 同 策略 改进 为 异 策略 ， 
提高 了 智能 体 的 学 习 速 度 ， 重 要 性 采样 公式 如 式 (12) 所 示 。 
Go) 
Elf e E LEG TUS (12) 
通过 智能 体 与 环境 的 交互 得 到 可 以 得 到 轨迹 + ， 然 后 使 
用 评论 家 网 络 计算 出 优势 函数 G ， 用 于 评判 所 选 动作 相 比 其 
他 动作 的 优势 ， 优 势 函 数 如 式 (13) 所 示 。 
G, cr ra € Y? rao Y rua T VS) (13) 
经 过 反复 实验 ， 将 /设置 为 09 。 在 实验 中 ， 智 能 体 的 网 
络 与 优势 网 络 除了 输出 层 ， 其 他 部 分 都 使 用 相同 的 神经 网 络 
结构 ， 每 个 步骤 的 回报 可 按 式 (14) 计 算 : 
R =G, +v(s,) (14) 
有 了 优势 函数 , 就 可 以 使 用 梯度 搜索 来 调整 网 络 参 数 2 ， 


" 


N 
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搜索 的 目的 是 将 式 (15) 目 标 函 数 7(0) 最 大 化 ， 
J(8) = min(p, (0G ,clip( p, (0).1—€.1- €)G;) (15) 
近 端 策略 优化 算法 网 络 结构 如 图 5 所 示 。 
图 5 PPO 算法 网 络 结构 图 d 6 分 层 智能 体 结构 示意 图 
Fig.5 PPO algorithm network structure diagram Fig.6 Schematic diagram of hierarchical agent structure 
具有 层次 结构 的 智能 体能 够 将 强化 学 习 问 题 分 解 成 更 小 在 高 层 智能 体 的 策略 里 面 ，s 是 智能 体 在 状态 * 与 策略 
的 子 问 题 ， 有 具有 加 速 学 习 的 潜力 ， 所 以 使 用 分 层 强 化 学 习 的 me 下 的 目标 ， 同 样 用 式 (17) 来 估计 高 层 智能 体 的 2 函数 。 
思想 来 解决 该 问题 。 将 智能 体 的 控制 分 为 高 层 与 低层 ， 高 层 Qis.g)- 
PUDE RS ai EEH Tt b max, EIS. fy max, QiG us Is =5,8, m gud qn 
JUT—UQRSR, A E BEBE E 21 8502 7] J& PR ERO BRE 3D x 
氏 层 智能 体 通 过 学 习 完成 高 层 智能 体 给 定 的 目标 ， 在 每 一 时 N 代表 低层 智能 体 到 达 当 前 目标 所 使 用 的 时 间 步 ，8 表示 在 
闻 步 上 作出 决策 , 低层 智能 体 的 驱动 力 是 内 部 奖励 , 如 图 6 所 状态 sos 时 智能 体 的 目标 ，7 是 当前 策略 的 目标 。 


IRo 使 用 参数 为 2 的 非 线 性 函数 近似 表示 Q*=(s,8)~Q(s,8;0) ， 


智能 体 的 高 层 与 低层 都 是 由 近 端 策略 优化 算法 组 成 ， 高 。 Q@、Q 可 以 通过 最 小 化 其 损失 函数 4(0) 与 4(0) 得 到 ，@ 的 
层 智能 体 观 测 原始 状态 , 通过 计算 价值 函数 OS Geo 来 最 。 损失 函数 可 以 使 用 式 (18) 表 示 ， 
大 化 外 部 奖励 ， 低 层 智能 体 中 的 表演 家 网 络 接受 状态 与 当前 UBA- Eaa Gi Og (18) 
目标 ， 通 过 计算 价值 函数 0 =(5.4:9,8,) 来 求解 预测 目标 ， 当 AP i REIER Aute E Yo RUPREERGE. 1 
仅 当 目标 达成 时 ， 评 论 家 网 络 才 会 给 出 正 向 激励 。 表示 通过 上 一 状态 以 及 其 目标 得 到 的 值 。 损 失 函 数 坪 的 原 
当 每 一 回合 结束 ， 或 目标 8 达成 时 ， 低 层 智能 体 表演 家 。” 理 与 上 式 相同 。 
网 络 停止 ， 然 后 高 层 智 能 体 选择 一 个 新 的 。， 然 后 重复 该 过 在 训练 过 程 中 ， 智 能 体 首先 与 环境 进行 交互 采集 轨迹 数 
程 。 使 用 深度 学 习 的 框架 为 高 导 和 能 体 与 低层 入 能 体 学 习 策 。 据 ， 并 将 交 瑟 得到 的 机 迹 娄 所 存储 在 经 验 池 中 ， 等 存储 了 中 
略 ， 使 用 式 (16) 来 估计 低层 智能 体 的 0 函数 。 够 的 数据 后 ， 智 能 体 开始 在 经 验 池 中 随机 抽取 一 定量 的 数据 
ROME: 边 交互 一 边 学 习 ， 表 演 家 网 络 进行 策略 的 更 新 ， 评 论 家 网 
e GGepemerYy slsusa (16) 名 进行 价值 的 更 新 ， 更 新 过 程 如 图 了 所 示 。 


Replay buffer 


Actor 网 络 Critic 网 络 


Rr c 1 
- 根据 新 策略 6， 计算 计算 状态 值 m" 
$i 动作 概率 (a |) si |s; , G0 55V.) P 
网 1! 1 网 
络 ， ! 络 
A ! 计算 动作 概率 比率 Ta 
2! 10) - ies 计算 优势 值 p 

Toora (0,84) A =V) + n Yr dcr n +7T -1V,(s;) ' 

! | 对 动作 概率 比率 进行 裁剪 ， 计 算 损 失 值 计算 i 


L™ (8) = E, [min(7; (0)A,,clip(, (8), — £,14- £)A.)] TD — error = AV (s, 4) + 4 7 V4GS) 


图 7 算法 训练 流程 图 


Fig.7 Schematic diagram of hierarchical agent structure 


4 ”实验 及 车 辆 在 环境 中 的 姿势 。 按 照 实际 的 比例 ， 在 实验 的 仿真 环 

境 中 建立 一 个 车 宽 40， 车 长 60 的 仿真 车 辆 。 然 后 在 仿真 车 
在 真实 环境 中 ， 当 可 掉头 区 域 较 大 时 ， 车 辆 通过 在 前 进 —— 辆 的 正 前 方 、 正 后 方 、 正 左 方 、 正 碳 方 设置 四 个 仿真 雷达 ， 
过 程 中 多 次 旋转 方向 盘 ， 调 整 车 身 的 位 置 ， 从 而 完成 掉头 任 ”通过 它们 探测 的 数据 计算 车 辆 在 仿真 环境 的 坐标 与 车 辆 的 转 


Ix 


务 ， 这 对 应 场景 一 。 但 在 可 掉头 区 域 较 小 时 ， 车 辆 需要 通过 弯 角 度 ， 在 实验 中 ， 使 用 这 两 个 量 作为 智能 体 的 状态 。 一 般 的 
增加 倒车 行为 来 完成 转弯 过 程 ， 这 对 应 场景 二 。 小 型 车 辆 最 大 转弯 角度 都 在 45” 左右 ， 将 汽车 转弯 角度 离散 化 
4.1 参数 设 定 为 5 个 选项 ， 每 个 选项 为 18” ， 使 用 其 作为 智能 体 的 动作 。 
在 实际 情况 中 ， 由 于 车 载 摄像 机 的 一 部 分 局 限 性 ， 实 验 在 场景 一 中 ， 由 于 可 用 于 仿真 车 辆 掉头 的 车 辆 可 行驶 区 
选择 使 用 激光 雷达 来 探测 掉头 过 程 中 车 辆 在 环境 中 的 位 置 以 域 较 大 ， 所 以 车 辆 能 够 在 不 倒车 的 情况 下 使 用 转弯 动作 完成 
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掉头 。 但 在 场景 二 中 ， 由 于 实验 缩小 了 仿真 车 辆 在 转弯 过 程 
中 的 车 辆 可 行驶 区 域 ， 车 辆 无 法 仅 通 过 前 进 完 成 掉头 任务 ， 
所 以 针对 第 二 个 场景 ， 实 验 二 在 实验 一 的 基础 上 又 增加 了 五 
个 倒车 动作 ， 分 别 对 应 前 五 个 角度 的 反方 向 。 

在 仿真 环境 中 , 实验 通过 仿真 车 辆 的 雷达 获得 车 辆 位 置 ， 
以 及 车 辆 的 旋转 角度 ， 将 其 作为 算法 的 输入 ， 然 后 输出 车 辆 
在 下 一 时 刻 的 旋转 角度 , 在 反复 进行 多 次 实验 后 , 取 7 为 0.9， 
此 时 算法 能 获得 相对 较 高 的 奖励 。 实 验 中 模型 的 参数 如 表 1 


所 示 。 表 1 中 ， 仿 真 车 辆 在 仿真 环境 中 的 坐标 用 (%,y) 表示 ， 
它 包 含 在 在 仿真 环境 2» F, 仿真 车 辆 的 在 仿真 环境 中 的 车 身 
姿势 用 9 表示 ， 它 的 范围 包含 在 前 进 动作 空间 4 与 倒车 动作 
空间 A, rf. 
详细 的 参数 设置 如 表 1 所 示 。 
表 1 MDP 参数 表 
Tab. 1 MDP parameter table 
MDP 仿真 环境 
S (wy)eD, ; 8€ A.A, 
A PET $C RA fh EUST jj Orgia 
R r -10-aA,,0] FCIEATRT dr S 
y r - 100i F5 ER 
42 实验 
实验 采用 了 HAC 算法 、PPO 算法 、AC 算法 、DQN 算 
法 与 文中 提出 的 HPPO 算法 来 测试 车 辆 在 初始 角度 不 同时 能 
否 训练 有 效 的 转弯 策略 ， 实 验 结果 如 图 8 所 示 ， 横 坐标 为 训 
练 回合 数 ， 纵 坐标 为 累计 奖励 。 
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Fig. 8 Average reward chart 
从 结果 可 以 看 出 ， 在 场景 一 中 ， 由 于 实验 难度 较 低 ， 使 


用 分 层 结构 的 HPPO 算法 能 够 在 5000 回合 左右 实现 调头 任 
务 ， 同 样 具 有 分 层 结构 的 HAC 算法 也 在 10000 回合 左右 的 
时 候 实现 了 调头 任务 。 其 他 三 种 算法 在 20000 回合 都 无 法 达 
到 目标 。 


分 层 思想 改进 的 HPPO 算法 相 比 其 他 算法 不 仅 能 够 
而 且 能 够 以 较 快 的 速度 进行 收敛 ， 这 表明 了 在 所 有 的 
HPPO 具有 较 好 的 性 能 
了 避免 偶然 性 因素 ， 训 练 好 的 智能 体 在 进行 50 次 仿 
真 后 成 功 掉 头 的 几率 以 及 平均 累计 回报 如 表 2 所 示 。 
表 2 不 同方 法 的 准确 率 
Tab.2 Accuracy of different methods 
成 功率 平均 回报 
0.0007 土 0.0114 -9.7090 土 0.3596 
0.0086 士 0.01252 -9.4957 土 0.3734 
0.0041 土 0.0146 -8.5556 土 0.2796 
0.9726 +0.0162 -3.0381 +2.5415 
HPPO 0.9843 + 0.0124 -2.5021 + 1.9617 


算法 
DQN 
PPO 
AC 
HAC 


在 场景 二 中 ， 为 了 增加 掉头 的 难度 ， 减 少 了 仿真 车 辆 在 
仿真 环境 的 可 行驶 区 域 ， 增 加 了 汽车 掉头 难度 ， 在 该 场景 下 
各 个 算法 的 表现 如 图 9 所 示 。 


Average episode reward 
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图 9 平均 
Fig.9 Average reward chart 


ChinaXiv 合 作 期 刊 


奖励 图 


算法 得 到 的 平均 奖励 在 -9 左右 ， 


但 机 


it 
这 说 明智 


够 使 车 辆 更 加 快速 安全 的 完成 转弯 任务 。 


环境 下 进行 


同样 地 ， 为 了 避免 偶然 性 医 


素 ， 训 练 好 的 


如 表 3 所 示 。 


表 3 
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从 结果 可 以 看 出 ， 随 着 训练 的 不 断 进 行 ， 非 分 层 机 制 的 
始终 无 法 得 到 更 高 
传统 的 算法 , HPPO 算法 能 够 获得 的 奖励 在 不 断 增 加 ， 
?能 体 很 好 的 学 习 了 驾驶 技 角 


的 奖励 。 


E, Xs HPPO 算法 能 


智能 体 在 复杂 


不 同方 法 的 准确 率 


Tab.3 Accuracy of different methods 


50 次 仿真 后 成 功 掉头 的 几率 以 及 平均 累计 回报 


算法 


成 功率 


平均 


可 报 


DQN 
PPO 
AC 
HAC 
HPPO 


0.0004 + 
0.0181 + 
0.0021 + 
0.9421 + 


- 0.0198 
- 0.0162 
- 0.0182 
- 0.0152 


0.42484 


30.0141 


-9.7099 + 0.3596 
-9.0381 +0.5415 
-9.4957 + 0.3734 
-3.5556 +3.2796 
-2.5022 + 2.9617 


4.3 


T 且 都 能 在 1 


驾驶 


域 较 大 ， 
成 了 掉头 任务 ; 如 图 


车 辆 行驶 


讨论 


经 过 训练 后 的 智能 体 完全 


掌握 了 


种 掉头 场景 使 有 
车 辆 的 掉头 轨迹 图 如 图 10 所 示 。 


图 10 仿真 车 辆 转弯 轨迹 图 


Heb 


动 驾 驶 车 辆 的 掉头 任 
的 动作 成 功 掉头 ， 


自动 


Fig. 10 Simulation vehicle turning trajectory diagram 


如 图 10 左 图 所 示 , 在 场景 一 


H, 由 于 仿 


车 辆 的 转弯 区 


所 以 在 训练 完成 后 ， 车 


10 右 图 所 示 ， 


辆 仅 使 用 前 进 转 2 


3 动作 就 完 


LIE, 场景 


的 仿真 车 


这 是 因为 


务 。 如 图 10 所 示 , 仿真 车 辆 的 
仿真 车 辆 的 掉头 起 点 ， 


场景 二 缩小 了 念 
变 大 ， 所 以 在 训练 完成 后 ， 


以 外 ， 还 使 用 了 倒车 动作 ， 


车 辆 
仿真 


mirus 


相 比 左 图 场景 


"S 


L 迹 明显 更 为 复杂 。 


的 转弯 区 域 ， 导 致 转弯 难度 


车 辆 除 J 


掉头 终点 。 


5 


本 文 针 对 


结束 语 


用 于 强化 学 习 的 马尔 可 


52] ] 


使 用 前 进 转弯 动作 
更 多 回合 才 完 成 了 掉头 任 
L 迹 中 实心 圆 形 所 在 的 点 表示 


星 所 在 的 点 


实心 五 


自动 驾驶 车 辆 的 掉头 问题 


夫 决策 过 


从 表 仿真 车 辆 的 


页 ， 首 先 建立 了 一 


TRUM, qui 


s sk py 


下 的 
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车 辆 掉头 问题 ， 设 计 了 两 个 场景 ， 然 后 针对 该 模型 出 现 的 稀 
琉 奖 励 问题 采用 分 层 的 思想 进行 解决 ， 提 出 了 一 个 分 层 近 端 
策略 优化 算法 ， 设 计 了 合理 的 奖励 函数 。 实 验证 明 ， 相 比 于 
其 他 传统 的 强化 学 习 算法 ， 改 进 后 的 算法 能 够 在 车 辆 掉头 时 
为 车 辆 设计 更 安全 更 快速 的 掉头 策略 。 
在 未 来 的 工作 中 , 考虑 自动 驾驶 汽车 其 他 的 小 场景 问题 ， 
旨 在 适用 于 更 多 的 场景 。 
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